
3D-R1:让AI理解3D世界的下一步
3D-R1:让AI理解3D世界的下一步在人工智能快速发展的今天,我们已逐渐习惯于让 AI 识别图像、理解语言,甚至与之对话。但当我们进入真实三维世界,如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力?这正是 3D 视觉语言模型(3D VLM)所要解决的问题。
在人工智能快速发展的今天,我们已逐渐习惯于让 AI 识别图像、理解语言,甚至与之对话。但当我们进入真实三维世界,如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力?这正是 3D 视觉语言模型(3D VLM)所要解决的问题。
2025 年 AI 产品井喷,浪潮夹杂着泡沫,到底什么产品能穿越周期? WAIC 世界人工智能大会已经结束,APPSO 系列专题继续,我们希望梳理这半年来重要的 AI 产品和趋势,并在现场挖掘有用有趣的产品,同时探讨产品背后的一些细节
大家好,我是歸藏(guizang),今天给大家带来昨天探索的 AI 许愿祈福壁纸教程。昨天做了几张 AI 玄学的那种祈福壁纸,除了常见的文字花纹还加上了对应的神仙和一些现代化的处理。
孵化自北京大学软件工程研究所的 aiXcoder 正是基于这两个痛点走出差异化路线。团队自 2013 年就开始将深度学习技术应用于代码生成和代码理解领域,持续发表研究成果,并率先将深度学习模型落地为商业产品。
这是一期真格基金管理合伙人戴雨森的访谈实录,也是2025年中,对于整个 AI 行业的一次半年度复盘。
今天凌晨,马斯克再放大招更新Grok App。AI短视频30秒一键生成,真面对决谷歌Veo 3。刚刚,马斯克宣布:Grok Imagine今天开始向所有Grok Heavy用户推出。Grok iOS App升级,Imagine功能重磅升级!
最近整个 AI 圈的目光似乎都集中在 GPT-5 上,相关爆料满天飞,但模型迟迟不见踪影。昨天我们报道了 The Information 扒出的 GPT-5 长文内幕,今天奥特曼似乎也坐不住,发了推文表示「惊喜很多,值得等待」。
主打“自动化执行、多模型调用、上下文记忆”的 AI 编程应用大热,但运行卡顿、资源消耗惊人、推理成本过高等问题也随之而来。
据彭博社消息,人工智能初创公司 Anaconda 在新一轮融资中估值达到 15 亿美元。这家为开发者和数据科学家提供 AI 开发工具的公司计划于本周宣布,本轮融资额超过 1.5 亿美元。
近年来,扩散模型(Diffusion Models)凭借出色的生成质量,迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像(如 Stable Diffusion),到高质量人脸合成、音频生成,再到三维形状建模,扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。